1
生成式AI的三大支柱
AI030Lesson 2
00:00

想像一個世界,人工智慧不僅僅是辨識夕陽,它還能 從虛無中繪製出一幅夕陽。這正是從傳統模型到生成式AI的范式轉變。 判別式模型——專注於計算 $p(output|input)$ 以標記現有資料——轉向廣闊的生成式AI領域。我們已不再局限於過去的邊界劃分,而是深入探索對數據本身 底層資料分布的建模。

合成的三大支柱 傳統基線: p(output | input)⚔️GANs對抗式🌫️去噪模型去噪🔗Transformer序列

定義架構格局

我們的分類主要由三種截然不同的數學策略主導,每種策略在 多模態合成影像合成方面展現獨特優勢:

  • 生成對抗網路(GANs):兩大神經網路之間的高風險對決—— 生成器 (偽造者)與 判別器 (偵探)。這種 對抗性互動 迫使生成器創造出越來越難以分辨的內容。
  • 去噪模型:在混亂中尋找秩序的過程。這些模型透過 反覆添加與移除雜訊 來學習資料,最終掌握從純靜態中塑造穩健表示的能力。
  • 自回歸式Transformer:序列的建築師。像 生成式預訓練Transformer(GPT) 運作方式為 預測下一個詞元 根據之前所有內容的上下文進行預測,從而創建長距離且連貫的敘事與結構。
架構協同效應
現代突破很少單獨使用某一個支柱。像Stable Diffusion這樣的系統會使用 Transformer 來理解你的文字提示,並結合 去噪模型 流程來呈現視覺像素,通常利用變分自動編碼器(VAEs)所發現的潛在空間效率 變分自動編碼器(VAEs)的建模。